在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
本文提出了一种基于内核的自适应过滤器,该过滤器适用于以全双工(FD)模式运行的收发器中的数字域自身解雇取消(SIC)。在FD中,同时传输和接收信号的好处是以强大的自我干扰(SI)的价格出现。在这项工作中,我们主要有兴趣使用自适应滤波器(即自适应滤波器)在函数的再现核Hilbert Space(RKHS)中抑制SI。将投影概念作为功能强大的工具,APSM用于建模并因此删除SI。提供了低复杂性和快速跟踪算法,利用了平行投影以及RKHS中的内核技巧。在实际测量数据上评估所提出的方法的性能。与已知的流行基准相比,该方法说明了所提出的自适应滤波器的良好性能。他们证明,基于内核的算法达到了有利的数字SIC水平,同时借助了使用的自适应滤波方法,在丰富和非线性功能空间内实现基于平行的计算实现。
translated by 谷歌翻译
商业雷达传感正在获得相关性,机器学习算法构成了使该无线电技术传播到监视或医疗保健领域的关键组成部分之一。但是,雷达数据集仍然很少,并且对于所有雷达系统,环境条件或设计参数,尚无法实现概括。因此,部署启用机器学习的雷达应用程序通常需要一定程度的微调。在这项工作中,我们考虑了使用频率调制连续波进行深入学习的人类活动分类的情况下,跨雷达配置的无监督域适应的问题。为此,我们专注于理论启发的边距差异技术,该技术在计算机视觉领域已被证明是成功的。我们的实验将此技术扩展到雷达数据,使得与相同分类问题的几乎没有的监督方法达到了可比的精度。
translated by 谷歌翻译
特征选择是一个棘手的问题,因此实用算法通常折衷对计算时间解的精度。在本文中,我们提出了利用近似,或代理人的多层次的一种新型的多阶段特征选择框架。这种框架允许使用的包装在计算上更多有效的方式方法,显著增加的特征选择的解决方案的质量可以实现的,尤其是在大型数据集。我们设计和评估是一个替代辅助遗传算法(SAGA),它利用这个概念在勘探早期阶段,引导进化搜索。 SAGA只有切换到在最后开发阶段评估原有的功能。我们证明了上限SAGA替代辅助阶段的运行时间是雪上加霜等于包装GA,而且更好地扩展为实例数高位复杂性的归纳算法。我们证明,使用来自UCI ML储存部14个集,在实践中SAGA显著降低与基线相比包装遗传算法(GA)的计算时间,而汇聚成显著精度更高的解决方案。我们的实验表明,SAGA能以接近最优的解决方案不是一个包装GA快三倍到达,平均。我们还展示了旨在防止代理人误导向错误的最优进化搜索进化控制方法的重要性。
translated by 谷歌翻译
Figure 1: We introduce datasets for 3D tracking and motion forecasting with rich maps for autonomous driving. Our 3D tracking dataset contains sequences of LiDAR measurements, 360 • RGB video, front-facing stereo (middle-right), and 6-dof localization. All sequences are aligned with maps containing lane center lines (magenta), driveable region (orange), and ground height. Sequences are annotated with 3D cuboid tracks (green). A wider map view is shown in the bottom-right.
translated by 谷歌翻译